3-2 維度炸裂的空間
飛哥跟小博走進攤位一看,看到攤位人員賣力的叫喊著:「來喔來喔!覺得資料很多、變數很多、要因很複雜到頭痛嗎?
我們可以解決各位的超大數據的欄位計算,並且選出有意義的要因組合喔!不要讓『維度災難』影響到你的工作好心情,降維的事情就交給我們吧!」
小博問道:「飛哥,降維是甚麼東西啊?」
「 降維 指的是 降低資料維度 ,比如說我們去做身體健康檢查時,可能會去紀錄性別、年紀,測量身高、體重、血壓、脈搏這些數值, 我們每填寫一個項目後,對紙本資料而言就是增加一個紀錄欄位,以數據的角度來看就是增加一個維度的資料 ,所以我們檢查20個項目時,就會有20個維度的資料。當然,之前也有提到過資料的筆數也需要足夠的量,所以只有一個人的檢查資料是不夠的,因為各個項目都只有一筆資料,如果能收集到愈多人的資料,降維過後的可信度也愈高。」飛哥解釋著維度的概念。
「可是20個資料變數聽起來還好啊!應該不太需要用到降維吧?」小博緊接著提出另一個疑問。
「怎麼說呢,每個變數可能會跟其他變數有不同程度的關聯性,像是血脂可能跟體重有較高的關聯,年紀可能會影響一部分的血壓, 降維最主要的目的是將多個維度的資訊濃縮,它甚至可以將同類型的資訊濃縮在一起,用以區別各個變數的重要程度 ,最常見的降維方法就屬 PCA(Principle Component Analysis) 啦!這個方法會在每個PC中『以線性組合』給出各個項目的權重值,每個PC間在空間上是相互獨立的,而每個PC代表著一種特徵,假設某個PC在「血糖、血脂、體重」的權重值特別高,那我們可以判斷這個特徵是「肥胖」,但 每個PC代表的特徵必須根據人為判斷,PCA只能跟你說哪些類別在一起是具有意義的 。」飛哥對著小博解釋PCA的作用原理。
小博認真聽的同時,一位滿臉熱情的攤商走了過來。
資料參考:
https://builtin.com/data-science/step-step-explanation-principal-component-analysis